加强学习(RL)代理通常通过其预期值在测试方案的分布中进行评估。不幸的是,这种评估方法为超出测试分布以外的部署后概括提供了有限的证据。在本文中,我们通过将最新的清单测试方法从自然语言处理扩展到基于计划的RL来解决此限制。具体而言,我们考虑使用学习过渡模型和价值功能通过在线树搜索做出决策的RL代理。关键思想是通过清单方法来改善对未来绩效的评估,以探索和评估树木搜索过程中代理商的推论。该方法为用户提供了界面和一般查询规则机制,用于识别潜在的推理缺陷并验证预期的推理不变。我们介绍了一项涉及知识渊博的AI研究人员的用户研究,使用该方法评估训练有素的代理商,可以玩复杂的实时策略游戏。结果表明,该方法有效地允许用户识别代理推理中以前未知的缺陷。此外,我们的分析提供了有关AI专家如何使用这种测试方法的见解,这可能有助于改善未来的实例。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译